P3 Prosper Loan

将ListingCategory..numeric.由数值转换为因子。

根据EstimatedReturn和LoanOriginalAmount计算出每笔交易的实际利润Profit。

将ProsperRating..Alpha.中的空白值替换‘NA’,并且定义levels。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
## -1656.0   411.8   691.0   817.9  1119.5  4117.5   29084
## 'data.frame':    113937 obs. of  83 variables:
##  $ ListingKey                         : Factor w/ 113066 levels "00003546482094282EF90E5",..: 7180 7193 6647 6669 6686 6689 6699 6706 6687 6687 ...
##  $ ListingNumber                      : int  193129 1209647 81716 658116 909464 1074836 750899 768193 1023355 1023355 ...
##  $ ListingCreationDate                : Factor w/ 113064 levels "2005-11-09 20:44:28.847000000",..: 14184 111894 6429 64760 85967 100310 72556 74019 97834 97834 ...
##  $ CreditGrade                        : Factor w/ 9 levels "","A","AA","B",..: 5 1 8 1 1 1 1 1 1 1 ...
##  $ Term                               : int  36 36 36 36 36 60 36 36 36 36 ...
##  $ LoanStatus                         : Factor w/ 12 levels "Cancelled","Chargedoff",..: 3 4 3 4 4 4 4 4 4 4 ...
##  $ ClosedDate                         : Factor w/ 2803 levels "","2005-11-25 00:00:00",..: 1138 1 1263 1 1 1 1 1 1 1 ...
##  $ BorrowerAPR                        : num  0.165 0.12 0.283 0.125 0.246 ...
##  $ BorrowerRate                       : num  0.158 0.092 0.275 0.0974 0.2085 ...
##  $ LenderYield                        : num  0.138 0.082 0.24 0.0874 0.1985 ...
##  $ EstimatedEffectiveYield            : num  NA 0.0796 NA 0.0849 0.1832 ...
##  $ EstimatedLoss                      : num  NA 0.0249 NA 0.0249 0.0925 ...
##  $ EstimatedReturn                    : num  NA 0.0547 NA 0.06 0.0907 ...
##  $ ProsperRating..numeric.            : int  NA 6 NA 6 3 5 2 4 7 7 ...
##  $ ProsperRating..Alpha.              : Factor w/ 8 levels "","A","AA","B",..: 1 2 1 2 6 4 7 5 3 3 ...
##  $ ProsperScore                       : num  NA 7 NA 9 4 10 2 4 9 11 ...
##  $ ListingCategory..numeric.          : Factor w/ 21 levels "0","1","2","3",..: 1 3 1 17 3 2 2 3 8 8 ...
##  $ BorrowerState                      : Factor w/ 52 levels "","AK","AL","AR",..: 7 7 12 12 25 34 18 6 16 16 ...
##  $ Occupation                         : Factor w/ 68 levels "","Accountant/CPA",..: 37 43 37 52 21 43 50 29 24 24 ...
##  $ EmploymentStatus                   : Factor w/ 9 levels "","Employed",..: 9 2 4 2 2 2 2 2 2 2 ...
##  $ EmploymentStatusDuration           : int  2 44 NA 113 44 82 172 103 269 269 ...
##  $ IsBorrowerHomeowner                : Factor w/ 2 levels "False","True": 2 1 1 2 2 2 1 1 2 2 ...
##  $ CurrentlyInGroup                   : Factor w/ 2 levels "False","True": 2 1 2 1 1 1 1 1 1 1 ...
##  $ GroupKey                           : Factor w/ 707 levels "","00343376901312423168731",..: 1 1 335 1 1 1 1 1 1 1 ...
##  $ DateCreditPulled                   : Factor w/ 112992 levels "2005-11-09 00:30:04.487000000",..: 14347 111883 6446 64724 85857 100382 72500 73937 97888 97888 ...
##  $ CreditScoreRangeLower              : int  640 680 480 800 680 740 680 700 820 820 ...
##  $ CreditScoreRangeUpper              : int  659 699 499 819 699 759 699 719 839 839 ...
##  $ FirstRecordedCreditLine            : Factor w/ 11586 levels "","1947-08-24 00:00:00",..: 8639 6617 8927 2247 9498 497 8265 7685 5543 5543 ...
##  $ CurrentCreditLines                 : int  5 14 NA 5 19 21 10 6 17 17 ...
##  $ OpenCreditLines                    : int  4 14 NA 5 19 17 7 6 16 16 ...
##  $ TotalCreditLinespast7years         : int  12 29 3 29 49 49 20 10 32 32 ...
##  $ OpenRevolvingAccounts              : int  1 13 0 7 6 13 6 5 12 12 ...
##  $ OpenRevolvingMonthlyPayment        : num  24 389 0 115 220 1410 214 101 219 219 ...
##  $ InquiriesLast6Months               : int  3 3 0 0 1 0 0 3 1 1 ...
##  $ TotalInquiries                     : num  3 5 1 1 9 2 0 16 6 6 ...
##  $ CurrentDelinquencies               : int  2 0 1 4 0 0 0 0 0 0 ...
##  $ AmountDelinquent                   : num  472 0 NA 10056 0 ...
##  $ DelinquenciesLast7Years            : int  4 0 0 14 0 0 0 0 0 0 ...
##  $ PublicRecordsLast10Years           : int  0 1 0 0 0 0 0 1 0 0 ...
##  $ PublicRecordsLast12Months          : int  0 0 NA 0 0 0 0 0 0 0 ...
##  $ RevolvingCreditBalance             : num  0 3989 NA 1444 6193 ...
##  $ BankcardUtilization                : num  0 0.21 NA 0.04 0.81 0.39 0.72 0.13 0.11 0.11 ...
##  $ AvailableBankcardCredit            : num  1500 10266 NA 30754 695 ...
##  $ TotalTrades                        : num  11 29 NA 26 39 47 16 10 29 29 ...
##  $ TradesNeverDelinquent..percentage. : num  0.81 1 NA 0.76 0.95 1 0.68 0.8 1 1 ...
##  $ TradesOpenedLast6Months            : num  0 2 NA 0 2 0 0 0 1 1 ...
##  $ DebtToIncomeRatio                  : num  0.17 0.18 0.06 0.15 0.26 0.36 0.27 0.24 0.25 0.25 ...
##  $ IncomeRange                        : Factor w/ 8 levels "$0","$1-24,999",..: 4 5 7 4 3 3 4 4 4 4 ...
##  $ IncomeVerifiable                   : Factor w/ 2 levels "False","True": 2 2 2 2 2 2 2 2 2 2 ...
##  $ StatedMonthlyIncome                : num  3083 6125 2083 2875 9583 ...
##  $ LoanKey                            : Factor w/ 113066 levels "00003683605746079487FF7",..: 100337 69837 46303 70776 71387 86505 91250 5425 908 908 ...
##  $ TotalProsperLoans                  : int  NA NA NA NA 1 NA NA NA NA NA ...
##  $ TotalProsperPaymentsBilled         : int  NA NA NA NA 11 NA NA NA NA NA ...
##  $ OnTimeProsperPayments              : int  NA NA NA NA 11 NA NA NA NA NA ...
##  $ ProsperPaymentsLessThanOneMonthLate: int  NA NA NA NA 0 NA NA NA NA NA ...
##  $ ProsperPaymentsOneMonthPlusLate    : int  NA NA NA NA 0 NA NA NA NA NA ...
##  $ ProsperPrincipalBorrowed           : num  NA NA NA NA 11000 NA NA NA NA NA ...
##  $ ProsperPrincipalOutstanding        : num  NA NA NA NA 9948 ...
##  $ ScorexChangeAtTimeOfListing        : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ LoanCurrentDaysDelinquent          : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ LoanFirstDefaultedCycleNumber      : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ LoanMonthsSinceOrigination         : int  78 0 86 16 6 3 11 10 3 3 ...
##  $ LoanNumber                         : int  19141 134815 6466 77296 102670 123257 88353 90051 121268 121268 ...
##  $ LoanOriginalAmount                 : int  9425 10000 3001 10000 15000 15000 3000 10000 10000 10000 ...
##  $ LoanOriginationDate                : Factor w/ 1873 levels "2005-11-15 00:00:00",..: 426 1866 260 1535 1757 1821 1649 1666 1813 1813 ...
##  $ LoanOriginationQuarter             : Factor w/ 33 levels "Q1 2006","Q1 2007",..: 18 8 2 32 24 33 16 16 33 33 ...
##  $ MemberKey                          : Factor w/ 90831 levels "00003397697413387CAF966",..: 11071 10302 33781 54939 19465 48037 60448 40951 26129 26129 ...
##  $ MonthlyLoanPayment                 : num  330 319 123 321 564 ...
##  $ LP_CustomerPayments                : num  11396 0 4187 5143 2820 ...
##  $ LP_CustomerPrincipalPayments       : num  9425 0 3001 4091 1563 ...
##  $ LP_InterestandFees                 : num  1971 0 1186 1052 1257 ...
##  $ LP_ServiceFees                     : num  -133.2 0 -24.2 -108 -60.3 ...
##  $ LP_CollectionFees                  : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ LP_GrossPrincipalLoss              : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ LP_NetPrincipalLoss                : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ LP_NonPrincipalRecoverypayments    : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ PercentFunded                      : num  1 1 1 1 1 1 1 1 1 1 ...
##  $ Recommendations                    : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ InvestmentFromFriendsCount         : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ InvestmentFromFriendsAmount        : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ Investors                          : int  258 1 41 158 20 1 1 1 1 1 ...
##  $ Profit                             : num  NA 547 NA 600 1360 ...
##  $ ProsperRating                      : Factor w/ 8 levels "AA","A","B","C",..: NA 2 NA 2 5 3 6 4 1 1 ...

分析中所选择的变量包括:EstimatedReturn, ProsperRating..Alpha., ProsperScore, ListingCategory..numeric., BorrowerState, Occupation, IsBorrowerHomeowner, CreditScoreRangeLower, AmountDelinquent, AvailableBankcardCredit, IncomeVerifiable, StatedMonthlyIncome, LoanOriginalAmount, Recommendations, InvestmentFromFriendsCount, InvestmentFromFriendsAmount, Term, Profit

单变量绘图选择

查看Profit的分布情况,发现Profit总体呈现出右倾斜,Profit在200美元至600美元区间内各区段(每100美元为一个区段)的交易数量达到峰值,超过2000美元的就比较少了。Profit中位数约为691.0,第三四分位数为1119.5,可以认为Profit达到691美元以上即为收益较高的交易,这些也是值得关注的交易。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
## -1656.0   411.8   691.0   817.9  1119.5  4117.5   29084

发现有1456条交易评分为11分,由于评分的范围为1-10分,故为无效评分。

## 
##     1     2     3     4     5     6     7     8     9    10    11 
##   992  5766  7642 12595  9813 12278 10597 12053  6911  4750  1456

此处将11分替换为0分,然后查看评分分布情况。评分总体呈正态分布,4~8分的交易数量最多,低于4分货高于8分的交易数量明显减少。

与评分情况类似,评级也呈正态分布,C级的交易数量最多。

从贷款用途来看,绝大部分的贷款都是用于用途1(即Debt Consolidation),其次是用途7(即Other),剩余的贷款用途的交易数量基本都没超过7500。可见,绝大部分人的贷款用途是比较一致的。

各州的交易数量差别还是比较明显的。有些州的交易数量特别高,比如CA的交易数量将近15000笔,FL、NY和TX都有将近7000笔;相比之下,其它大部分州的交易数量都比较低,不少连1000笔都不到。

从贷款的职业来看,Other和Professional的交易数量特别多,主要原因是这两个类别都包括了多种职业的人,因此各自的交易总数较高。若去除这两个职业,其他交易数量较多的职业都是收入相抵较高和稳定的职业,比如Accountant/CPA、Computer Programmer、Executive、Skiller Labour、Teacher等。这些职业较高、经济状况也可能更好的贷款者可能会带来更高的Profit。

拥有房产和没有房产的贷款者数量基本相当。

信用评分下限总体呈正态分布,中位数为685.6。这样的分布情况与之前的ProsperRating或ProsperScore总体呼应。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##     0.0   660.0   680.0   685.6   720.0   880.0     591

AmountDelinquent的对数整体呈正态分布,中位数为984.5。

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max.     NA's 
##      0.0      0.0      0.0    984.5      0.0 463881.0     7622

AvailableBankcardCredit的对数整体呈正态分布,中位数为11210。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##       0     880    4100   11210   13180  646285    7544

绝大部分的贷款者的收入都可以得到核实。

AvailableBankcardCredit的对数整体呈正态分布,中位数为4667。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       0    3200    4667    5608    6825 1750003

尽管LoanOriginalAmount中位数为6500,没有呈现出明显的分布形态,但有50%的交易金额都在6500美元以下。比较有意思的是,交易金额在9000美元至10000美元及14000美元至15000美元这两个区段的交易数量较多。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1000    4000    6500    8337   12000   35000

绝大部分的交易都没有任何朋友推荐。

同样的,绝大部分交易也没有朋友投资。

即使有朋友愿意投资,金额往往也比较小,第三四分位数依然为0,平均值仅为16.55

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##     0.00     0.00     0.00    16.55     0.00 25000.00

单变量分析

你的数据集结构是什么?

本数据集有113937条交易数据,81个变量,其中20个变量为因子,其余为数值型和实数型。

因子变量中,部分是有序因子变量,如下。 (best) —————-> (worst)

CreditGrade: AA, A, B, C, D, E, HR, NC;

ProsperRating..Alpha.: AA, A, B, C, D, E, HR;

IncomeRange: “$100,000+”, “$75,000-99,999”, “$50,000-74,999”, “$25,000-49,999”, “$1-24,999”, “$0”, “Not employed”, “Not displayed”;此项为贷方收入范围,故此处可以认为收入越高越好,且没有记录是最差的情况。

其余的因子变量均为日期(如ListingCreationDate)、代码号(如ListingKey)、州名(如BorrowerState)、职业类型(如Occupation)等无序因子。

其它的发现有:

  1. 大部分交易的收益率在0.06至0.13之间。实际收益在200至1200美元

  2. ProsperRating..Alpha.总体呈正态分布,以评级C为中心,数量最多,等级优于或劣于C的均依次减少。

  3. ListingCategory中“债务合并(Debt Consolidation)”的最多,占了总交易记录逾50%;其次是“其它(Other)”。

  4. BorrowerState中,各州的贷款交易数差异较大,最多的CA有14717条交易,其次TX有6842条;按交易数排在最后三位的WY、ME和ND分别只有150、101和52条交易。

  5. 从贷款者的职业分布来看,同样各职业之间的差异较大。除了“其它职业(Other)”以外,“专业人士(Professional)”在总交易量中所占的数量最高,其次是“程序员(Computer Programmer)”和“执行人员(Executive)”;按交易数排在最后三位的“社区大学学生(Student - Community College)”、“法官(Judge)”和“技术学校学生(Student - Technical School)”分别只有28、22和16条交易。

  6. 其它有些数据也呈正态分布,如CreditScoreRangeLower、AmountDelinquent(log10)、AvailableBankcardCredit(log10)、StatedMonthlyIncome(log10)。

  7. 从Recommendations、InvestmentFromFriendsCount数据分布来看,只有很少一部分交易是由朋友推荐和投资的。

  8. 从InvestmentFromFriendsAmount数据分布来看,来自朋友的投资额并没有呈现出明显的规律(比如投资数额低的人数多,投资额高的人数少)。

你的数据集内感兴趣的主要特性有哪些?

我对Profit最感兴趣,希望找出能够预测Profit的那些变量/特征。我认为与Profit可能相关的特征有CreditGrade、ProsperRating..Alpha.、ProsperScore、ListingCategory..numeric.、CreditScoreRangeLower、AmountDelinquent、AvailableBankcardCredit、IncomeVerifiable、StatedMonthlyIncome、LoanOriginalAmount。

你认为数据集内哪些其他特征可以帮助你探索兴趣特点?

同时,我也对其它一些特征比较感兴趣,如BorrowerState、Occupation、IsBorrowerHomeowner、Recommendations、InvestmentFromFriendsCount、InvestmentFromFriendsAmount。结合这些特征,可能会有一些有意思的发现,比如来自哪些州的贷款者可能带来更高的收益、朋友的推荐和投资是否对投资收益有影响,等。

根据数据集内已有变量,你是否创建了任何新变量?

创建了变量Profit,该变量为EstimatedReturn和OriginalLoanAmount的乘积,为实际预期收益。

在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

对ProsperScore进行了处理。该变量的数值范围为1-10,但是有些交易的评分为11分,超过了有效范围,故将11替换为0。 同时也将ListingCategory..numeric.由int转换为factor,因为这里的数字其实是代码,指代的是贷款用途的类型(比如装修)。

双变量绘图选择

Profit的高低与ProposerRating..Alpha.有一定的相关性。总体来看,各等级评级的Profit呈现出“两头低、中间高”的形态;评级处于中间位置的B级、C级和D级交易的Profit中位数高于全部交易的Profit中位数,无论是评级降低还是升高,各级别交易的Profit的中位数都处于整体中位数之下。

贷款期限越长,总体Profit就越高,两者相关系数为0.45,中度相关。同时,贷款期限越长,IQR越大。

## [1] 0.4545507

各州之间的Profit没有明显差别。

有房产的贷款者能带来的Profit整体略高于没有房产的贷款者。

AmountDelinquent与Profit之间几乎没有相关性,两者的相关系数为-0.02。

## [1] -0.01607584

AvailableBankcardCredit的对数与Profit之间相关性很低,两者的相关系数为0.11。

## [1] 0.1107681

StatedMonthlyIncome与Profit之间相关性很低,两者的相关系数为0.14。

## [1] 0.1423907

LoanOriginalAmount与EstimatedReturn呈弱相关,相关系数为-0.29。整体来看,LoanOriginalAmount越高,EstimatedReturn越低。

## [1] -0.2861175

AvailableBankcardCredit与LoanOriginalAmount呈弱相关,相关系数为0.23。

## [1] 0.2298664

从职业分布来看,Profit最高的那些交易中的贷款者职业包括法官、医生、药剂师等收入较高、职业稳定性较好的人群,而在校大学生(依次是二年级、一年级、四年级和三年级)、社区大学学生这些群体带来的Profit明显低于全部交易的中位数。

Profit最高的十个职业是Pharmacist、Doctor、Principal、Engineer - Chemical、Executive、Judge、Pilot - Private/Commercial、Attorney、Nurse (RN)、Police Officer/Correction Officer。想要最大化Profit,可以重点关注这些职业人群特征。

计算排名前十职业Profit的中位数、平均数、最大值及最小值。

## # A tibble: 10 x 5
##    Occupation                        P.median P.mean P.max  P.min
##    <fct>                                <dbl>  <dbl> <dbl>  <dbl>
##  1 Pharmacist                           1066.  1185. 3168.  118. 
##  2 Doctor                                986.  1096. 3698. -200. 
##  3 Principal                             974.  1041. 2728. -142. 
##  4 Engineer - Chemical                   971.   979. 2502.   53.5
##  5 Executive                             963.  1061. 3865. -132. 
##  6 Judge                                 957.  1141. 2498.  289. 
##  7 Pilot - Private/Commercial            906.  1039. 2900    46.5
##  8 Attorney                              905    970. 3357  -627  
##  9 Nurse (RN)                            862    950. 3168. -754. 
## 10 Police Officer/Correction Officer     815.   926. 3865.  -83.2

从不同职业的LoanOriginalAmount来看,Profit排名前十的职业的LoanOriginalAmount也比较高,这可能是他们能带来更高Profit的原因。

从不同职业的StatedMonthlyIncome来看,Profit排名前十的职业的StatedMonthlyIncome也比较高,这可能是他们能带来更高Profit或能有更高的LoanOriginalAmount的原因。

在Profit排名前十的职业中,Judge的Profit明显高于其他职业。其它Profit相对较高的职业也多为对“知识水平更高的”职业,比如Doctor、Executive、Pharmacist以及Pilot。

从图上直观的可以看到,Profit与EstimatedReturn相关性不是很强,接下来通过计算相关系数来进一步检验。

Profit与EstimatedReturn之间的相关系数为0.1535612,相关性较弱。

## [1] 0.1535612

从图上直观的来看,Profit与LoanOriginalAmount之间的相关性比较明显,接下来通过计算相关系数来检验。

Profit与LoanOriginalAmount之间的相关系数为0.851494。可见,在Profit排名前十的人群中,贷款金额越高的人越能带来更高的Profit。

## [1] 0.851494

Profit最高的10个职业的贷款用途中没有10(Cosmetic Procedure)、11(Engagement Ring)、12(Green Loans)、17(RV)。收益最高的用途是9(Boat)、20(Wedding Loans)、8(Baby&Adoption)、1(Debt Consolidation)、3(Business),其中不少是较“贵”的消费。

在Profit排名前十的人群中,Term越长的交易Profit明显越高,这也与之前观察到的LoanOriginalAmount越高带来的Profit越高相印证。与此同时,可以发现Term越高,Profit的异常值就越少。

在Profit排名前十的人群中,Profit与Term之间的相关系数为0.4707612,为中度相关。

## [1] 0.4707612

双变量分析

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

Profit的高低与ProposerRating..Alpha.有一定的相关性。总体来看,各等级评级的Profit呈现出“两头低、中间高”的形态;评级处于中间位置的B级、C级和D级交易的Profit中位数高于全部交易的Profit中位数,无论是评级降低还是升高,各级别交易的Profit的中位数都处于整体中位数之下。

从职业分布来看,Profit最高的那些交易中的贷款者职业包括法官、医生、药剂师等收入较高、职业稳定性较好的人群,而在校大学生(依次是二年级、一年级、四年级和三年级)、社区大学学生这些群体带来的Profit明显低于全部交易的中位数。

从贷款用途来看,Profit最高的10个职业中,能得到Profit最多的用途主要是较“贵”的消费,比如Baby&Adoption(育儿及收养)、Boat(购买船/游艇)、Business(商用资金)、Medical/Dental(医疗/牙医),而Profit最低的10个职业中,能得到Profit最多的用途是较“便宜”的消费,比如Large Purchases(大额支出)、Tax(税款)。当然,这也可能和这些职业所处的年龄有关,Profit最低的10个职业中,以学生和一些初级职位为主,比如助教和餐饮从业者,相对年轻,消费能力比较有限,消费的类型也与该年龄段相匹配。

来自不同州的贷款者的Profit水平差异并没有很大,各州Profit的中位数与整体数据的中位数比较相近,各州Profit的分布形态也比较相近,四分位数的间距总体还是比较接近。

AmountDelinquent与Profit之间基本没有什么相关性,并不是作为一个预测Profit的很好的指标。

从AvailableBankCredit和StatedMonthlyIncome与预期收益的关系来看,信用额度越高、月收入越高的人群所能带来的Profit越高,但两者与Profit也仅为弱相关性,未必是预测Profit的很好的指标。

你是否观察到主要特性与其他特性之间的有趣关系?

职业越好的贷款者,比如法官、医生、药剂师,其贷款的金额就越高,尽管这些贷款的预期收益率低,但是贷款金额高使得他们能带来较高的收益。

从LoanOriginalAmount与EstimatedReturn的关系来看,原始贷款金额越低,得到的收益越高。当原始贷款金额超过30000美元时,收益基本在0.05至0.1之间;相比之下,金额低于10000美元时,有相当多一部分交易的收益率在0.1以上。

你发现最强的关系是什么?

经济状况越好(比如以职业、收入、信用额度、原始贷款总额来衡量)的群体,所能带来的Profit越高。

多变量绘图选择

低评级(如D、E)的LoanOriginalAmount较低,基本不超过15000美元;高评级(如A和AA)的LoanOriginalAmount分布较为均匀,从低到高都有覆盖。此外,低评级的EstimatedReturn,尤其是HR级别的交易,集中于较低水平甚至小于0(即亏损)。

整体人群中,能带来最高Profit的贷款用途包含了Debt Consolidation,且以Debt Consolidation为用途的交易数量最多。在Debt Consolidation的交易中,LoanOriginalAmount越高的交易带来的Profit也相对更高。

Top 10 Occupation人群中,Profit最高的贷款用途与整体人群没有太大差异,也是以Debt Consolidation为主。

无论是从EstimatedAmount、LoanOriginalAmount还是Profit来看,各个职业的贷款者都是较为随机的分布,并没有呈现出哪个职业的LoanOriginalAmount、EstimatedReturn或Profit明显特别高。

期限为60个月的贷款EstimatedReturn普遍较高,且他们的LoanOriginalAmount也比较高,大部分都在10000美元以上。相比之下,期限为36个月的贷款在LoanOriginalAmount大于10000美元时,EstimatedReturn普遍偏低,基本都在0.1以下,而当LoanOriginalAmount小于10000美元时,EstimatedReturn分布较广。

同样的,在Top 10 Occupation人群中,贷款期限越长,带来的Profit整体越高,但是这一人群中,LoanOriginalAmount的交易数量较整体人群明显少了很多。

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

低评级(如D、E)的LoanOriginalAmount较低,基本不超过15000美元;高评级(如A和AA)的LoanOriginalAmount分布较为均匀,从低到高都有覆盖。

期限为60个月的贷款EstimatedReturn普遍较高,且他们的LoanOriginalAmount也比较高,大部分都在10000美元以上。相比之下,期限为36个月的贷款在LoanOriginalAmount大于10000美元时,EstimatedReturn普遍偏低,基本都在0.1以下,而当LoanOriginalAmount小于10000美元时,EstimatedReturn分布较广。

Top 10 Occupation人群所在交易中Profit最高的五种贷款用途中,以期限为36个月和60个月的贷款为主,期限为12个月的非常少;此外,总体而言,LoanOriginalAmount较高的交易Profit也更高。

这些特性之间是否存在有趣或惊人的联系呢?

Profit与LoanOriginalAmount之间具有较高的正相关性,即交易的LoanOriginalAmount越高,Profit就越高;相比之下,Profit受到EstimatedReturn的影响比较小。这一结论从另一方面也间接得到了印证,期限较长的贷款普遍来看带来的Profit更高,而一般来说,贷款期限长也是因为贷款的金额比较高。

比较有意思的是,无论是收入高低或职业“好坏”,在贷款用途上,不同的贷款者总体没有很大差异,都是以Debt Consolidation占了多数。可见,各类人群来借款的原因有共性。


定稿图与总结

绘图一

##     25%     50%     75% 
##  411.75  691.00 1119.45

描述一

交易Profit呈右倾斜分布,Profit在400美元至500美元的交易数量最多。交易Profit的中位数在700美元左右,故可以认为Profit在700美元以上即为Profit较高的交易;我们也可以发现,大于0的离群值数量明显多于小于0的离群值。

绘图二

描述二

有些职业的贷款者所能带来的Profit(以中位数来衡量)明显高于其它职业或整体水平,Profit排名前十的职业(以下简称Top 10 Occupation)依次是Pharmacist, Doctor, Principal, Engineer - Chemical, Executive, Judge, Pilot - Private/Commercial, Attorney, Nurse (RN)及Police Officer/Correction Officer,他们的排名较高很有可能是因为这些人的经济水平较好(以职业或收入来衡量)。对于这些Profit最为丰厚的人群,可以进一步观察他们的交易有哪些特征。

绘图三

描述三

从贷款交易的用途来看,虽然有一些其它的用途(例如Business、Baby&Adoption、Boat、Wedding Loans),但Top 10 Occupation中最多的为Debt Consolidation。Profit明显随着LoanOriginalAmount的数量增长而增长(即沿着X轴方向自左向右气泡大小明显增大),两者的相关系数约为0.85;相比之下,EstimatedReturn对Profit的影响很小(即沿着Y轴方向气泡大小没有明显变化),很难通过EstimatedReturn预测Profit的高低,两者的相关系数仅为0.15。


反思

本数据集有113937条交易数据,81个变量,其中20个变量为因子,其余为数值型和实数型。进行数据分析大致步骤如下:首先,我先对各个变量进行单变量分析,查看他们的分布情况,在这一过程中对数据表中的部分数据进行了清洗(比如ProsperScore);然后,我进行了双变量探索,主要了解Profit与其他可能相关的变量之间的关系;最后,通过多变量分析,来了解Profit与多个相关变量之间的关系。

交易的Profit与LoanOriginalAmout呈明显的正相关性,两者相关系数为0.85。通过进一步分析,我发现影响LoanOriginalAmount的重要因素之一是贷款人的职业,职业越“好”,收入越高,贷款人可能需要的LoanOriginalAmount就越高。让我感到比较意外的是,不同人群的贷款用途没有很大的差别,都是以Debt Consolidation占多数,很难从目前选取的变量中找出各人群的不同点。

本次分析也受到了来自数据集本身的限制,比如数据缺失,这就导致在做很多某些方面的分析时会缺少很多数据,比如因为ProsperRating..Alpha.数据缺失导致在做Profit和ProsperRating..Alpha.双变量分析时缺少近30000条数据,相当于整个数据四分之一左右的数据。为了进一步提高分析,可能需要尝试补全这些缺失的数据。在贷款用途方面,可以考虑通过选取其它更多的相关变量来进一步探索不同人群在Debt Consolidation的区别。此外,也可以考虑是否需要对各人群做更细致的分析,针对每个人群分别进行分析,这样对每个人群的消费行为就会有更深入的理解。